反思癌症早筛:统计偏差“造就”夸大的作用
The following article is from 返朴 Author 王晨光
在癌症谱系上,“早发现早治疗”能明确挽救生命的种类并不多,作为一个整体,癌症早期筛查带来的好处很可能被夸大了。
“筛查可以发现早期癌症、延长生命”,这一论断对大众和医生来说都不陌生。许多肿瘤患者及其家属都曾经听到过医生言之凿凿地说:“没有这些筛查和早期诊断手段,很多癌症患者检查出来就是晚期,很少能活过5年。现在不同了,很多都能活5年以上。”
专业领域之外,很少有人会对这一论断的普适性提出质疑。然而近些年来,有关癌症筛查的价值在医学界获得越来越充分的讨论,领域内专业人员在认识上已经发生变化。与落后半拍的大众认知相反,目前的趋势是建议减少常规筛查。这一建议对很多人来说是反直觉的,因此扭转这种“常识”就变得很困难。
两种统计偏差,导致早筛好处被夸大
无论支持筛查有多少理由,其最终目的都是降低患者死于癌症的几率、延长患者的生命。很容易理解的一个逻辑是:如果某种疾病人类迄今对它束手无策,那么早发现的唯一作用就是让患者和家属更早陷入绝望。这不仅适用于某些癌症,也适用于那些迄今人类还无可奈何的先天性疾病。
减少那些不必要的常规癌症筛查,就是基于这一不断发展的科学认识:对于大多数肿瘤来说,以早发现、早治疗为直接目的的筛查并不一定能降低癌症死亡率,反而有充分证据表明,多种癌症筛查实际上弊大于利。
对筛查结果的统计偏差,是造成筛查好处被夸大的主要原因。
癌症确诊后患者的生存时间(生存期)常用作筛查价值的评价指标。然而,由于存在多项数据分析的偏差(bias,专业多译成“偏倚”,为便于理解,以下统一使用“偏差”一词),患者生存率并不能准确地用以评价筛查的临床价值。这点不仅民众不清楚,很多从事医疗工作甚至是癌症专业的医护人员也缺乏正确的认识。筛查机构或者关爱癌症患者的慈善团体,也有意或无意地误读生存期。久而久之,一项癌症筛查如果能增加确诊患者的5年生存期,就被等同于可以挽救生命。其实这种貌似常识性的认识存在严重问题。
有哪些筛查结果的数据分析会造成这种结论上的偏差?
首先我们来认识一下癌症筛查中的“提前期偏差”。筛查发现的患癌时间,势必早于因出现症状而确诊的时间(否则筛查也就失去了意义),这时就会产生提前期偏差。我们可以设定一个场景:一组经历持续咳嗽和体重减轻的男性在67岁时被诊断出患有肺癌,在70岁时死于肺癌,这组患者的五年生存率为0%。如果这些人在60岁时进行筛查并被确诊,但他仍然在70岁时死亡,寿命是一样的,但计算生存率时,其五年生存率为100%。这就是提前期时间偏差。
癌症筛查数据分析中还存在的一种情况是“时长偏差”,指的是筛查更有可能查到那些生长缓慢、侵袭性较小的癌症(医学界称之为“非进展性”癌症)。这样的肿瘤从筛查确诊到出现症状的时间,比快速生长的肿瘤要长,这也是它们更容易被筛查出来的原因。
时长偏差的一个后果是导致过度诊断和过度治疗。比如通过筛查发现的缓慢生长的癌症,在患者的一生中可能都不会造成伤害或需要治疗。但它们一旦在较早阶段被发现,对多数人来说,不寻求治疗几乎是不可能的。
再设想一个场景:一项检测“非进展性”癌症的筛查筛出2000名生长缓慢的早期癌症,将这2000名患者加入1000名患有“进展性”癌症的患者群体中,后者的五年生存率是40%(1000人中有600人在五年内死亡),这一合并统计就会人为地将癌症患者整体的五年生存率从40%提高到了80%(2400/3000)。但很显然,这个五年生存率的增加其实只是一种错觉,因为死亡人数完全相同(依然是600人)。这就是时长偏差带来的结果。
大样本统计验证筛查能否减低死亡率
由于以上偏差,了解一项癌症筛查是否可以减少癌症死亡的唯一可靠方法是通过大样本随机试验,观察对照(常规护理)组和筛查组的癌症死亡率是否有差别。遗憾的是,使用这种分析方法,大多数癌症筛查变得没有了临床价值。
来自韩国的一项研究,针对20万人采用问卷调查的方式了解他们在过去两年是否接受了甲状腺癌筛查。基于调查结果,分析了2008年至2010年间该群体的甲状腺癌发病率、死亡率以及报告接受甲状腺癌筛查的人数比例,并进行了相关性计算。发现甲状腺癌筛查率与甲状腺癌发病率之间呈现强烈正相关,但甲状腺癌发病率(其变化反映筛查率的变化)与死亡率之间却没有相关性。
韩国这项研究提供了令人信服的证据,表明对大众进行甲状腺癌筛查更可能无益。其它国家和地区的研究也得出了类似的结论。
另一个经典案例来自日本。在日本,神经母细胞瘤是儿童常见的、预后不好的一种恶性肿瘤。研究发现,神经母细胞瘤患者尿液中含有过量的香草扁桃酸(VMA)和高香草酸(HVA),这两种物质可以作为筛查神经母细胞瘤的重要标志物,非侵入性,简单易行。
1974年,日本京都开始一个大规模的筛查计划,旨在通过对6个月大的婴儿的VMA抽查测试来早期发现这种肿瘤,希望能提高治愈率。这个计划后来在日本其它地区相继展开,厚生劳动省在1988年建议使用VMA、HVA和肌酐的定量测量来筛查神经母细胞瘤。在1984年到1989年的六年间,这个计划筛查了超过500万名婴儿,发现了468例神经母细胞瘤病例。研究者对京都自1974年至1988年底筛查发现的共357例病例进行分析,结果显示这些患者的生存率高达97%(357例中的348例)。筛查似乎能够提高早期发现肿瘤的机会,改善患者的预后。
随后,德国和加拿大也开展了该筛查项目并对结果进行了评估。德国的研究采用高效液相色谱法对一岁大的婴儿进行筛查,而加拿大的研究则采用灵敏度较低的薄层色谱法对三周至六个月大的婴儿进行筛查。令人意外的是,这两项试验均未发现筛查能降低神经母细胞瘤的死亡率,反而都导致了大量神经母细胞瘤病例的过度诊断。
由于这两项试验的结果与日本的研究结果不一致,2003年5月,日本厚生劳动省组织了一个特别委员会,重新讨论现行政策的合理性。经过四次会议后,委员会于2003年8月发表了一份报告。委员会认为,有足够的证据表明,目前的筛查方法会导致神经母细胞瘤的过度诊断,同时没有发现足够的证据表明该计划降低了该疾病的死亡率,因此报告建议不要继续进行筛查。随后,厚生劳动省决定停止该计划。
对于日本引入和推广筛查的证据进行仔细审查后发现了一些严重的问题。尽管厚生劳动省最初得到的97%生存率看起来很高,但这个数字典型代表了前文提到的“时长偏差”,即筛查更容易发现缓慢发展(预后也较好)的癌症。相比之下,快速生长(预后也更差)的肿瘤不太可能通过筛查发现,却会导致婴儿更快出现临床症状,如肿瘤导致的腹部肿胀。
通过筛查和随后的过度诊断,阳性的婴儿从正常人(无症状)变成了患者,被施以本来可能不需要的手术治疗和由此带来的不必要伤害。日本在神经母细胞瘤筛查方面的教训,再次凸显了在将筛查计划纳入公共政策之前,对其潜在的收益和危害进行严格评估的重要性。
对于一些常见的癌症类型,如宫颈癌、结直肠癌、肺癌和乳腺癌,临床试验表明,筛查和“早发现”可以挽救生命(有明确筛查价值的癌症名单见《有些癌症筛查,无用甚至有害》)。即使如此,其临床收益却很可能被高估。比如50至59岁女性的乳房X线筛查,我们更多考虑的是一旦发现会怎样,而忽视需要对超过1300名女性进行筛查才可能挽救一条生命的事实。
审视这个数字,就必须考虑筛查的潜在危害,比如假阳性和大多数永远不会发展为乳腺癌的结节等结果,都会给患者及其家庭成员带来巨大的心理压力和焦虑,以及不必要的和有创的随访检查;或者是假阴性结果造成患者忽略原本应该被注意的体征和症状。此外,大规模的早期筛查需要耗费大量资源和资金。
在等待筛查结果时,大多数民众的心理是复杂的:希望自己的检查结果是阴性,而筛查的目的却是为了发现阳性。出于这种心理,很少有假阳性的人对筛查结果置之不理,不但穷尽各种确诊性的检查,一次不行还要进行多次随访性检查(过度诊断)。有研究推算,19%通过筛查检出的乳腺癌和20%-50%通过筛查检测到的前列腺癌被过度诊断。而甲状腺癌筛查中这种情况尤为严重,甚至有专业学术团体建议修改甲状腺癌的诊断标准以应对这种现象。
盲目筛查必然带来过度治疗
筛查的阳性结果一旦被确定,极少有人能冷静判断是否需要接受治疗。这方面最经典的案例依然是前列腺癌。早期筛查可能会发现缓慢生长的前列腺癌,这些癌症大概率不会对患者的寿命或健康产生实质性影响,并不具备需要治疗的临床指征。这种情况下进行不必要的治疗,如手术或放疗,就会带来额外的风险,治疗的副作用包括尿失禁、勃起功能障碍等,这些并发症反而会对患者的生活质量造成影响。
早筛导致过度治疗的另一个“重灾区”是甲状腺癌。与前列腺癌相似,伴随筛查阳性患者的是一系列侵入性确诊检查(活检),其中相当一部分患者最终选择手术切除甲状腺以及放射性或药物治疗。切除甲状腺对人体的影响,相信大家都有所了解。
而由筛查发现的这部分甲状腺癌往往进展缓慢,几乎不会发展为危及生命的程度。即使有一部分属于预后不好的类型,早筛、早诊和早治也并不意味着能减少患者死于甲状腺癌的机会,如前文所述,韩国等多个地区的流调数据支持这一观点。正因为如此,主流医学界不建议把甲状腺癌筛查纳入健康人体检项目。
不仅如此,由于甲状腺癌的缓慢进展特点,近年来卫生和医学机构对甲状腺癌的认识也在逐渐改变,之前有些归于甲状腺癌的类型因为较低的侵袭性而被踢出癌的类别。具有乳头状核特征的非侵袭性滤泡型甲状腺肿瘤(NIFTP)被从癌症类别中移除,便是这种认识改变的结果。这一改变降低了手术和放射性碘治疗的需求,对患者的积极影响在于减少了无谓的治疗和频繁监测,帮助患者降低了经济成本和患者心理负担,提高了生活质量。
这一改变也是对筛查项目的一种否定。因为常规超声筛查手段并不能把NIFTP和其它类型甲状腺癌作出明确区分,筛查阳性也会导致这群患者接受不必要的侵入性确诊检查。
关注自身健康的人们,有必要了解哪些癌症是可以预防的,哪些癌症是可以筛查的,哪些类型的癌症筛查能延长患者的生命。同等重要的是,我们还需要了解哪些筛查没有意义、哪些即使筛查后能够做到早诊断也没有价值。不然,在无良检测机构对癌症早筛重要意义无限、甚至歪曲夸大的信息中,在检测机构推出的各类早筛的“豪华套餐”中,不免纠结。而人们一旦相信了这些宣传,将陷入连环筛查甚至诊治的迷局,给身心健康带来极大危害。
参考文献
[1] Ahn HS, Kim HJ, Kim KH, et al.: Thyroid Cancer Screening in South Korea Increases Detection of Papillary Cancers with No Impact on Other Subtypes or Thyroid Cancer Mortality. Thyroid 26 (11): 1535-1540, 2016.[2] Nikiforov YE, Seethala RR, Tallini G, et al. Nomenclature revision for encapsulated follicular variant of papillary thyroid carcinoma: a paradigm shift to reduce overtreatment of indolent tumors. JAMA Oncol. 2016;2(8):1023-1029.
[3] https://www.cancer.gov/about-cancer/screening/research/what-screening-statistics-mean
[4] Sawada T. Past and future of neuroblastoma screening in Japan. Am J Pediatr Hematol Oncol. 1992 Nov;14(4):320-6.
[5] Tsubono Y, Hisamichi S. A halt to neuroblastoma screening in Japan. N Engl J Med. 2004 May 6;350(19):2010-1.
更多精彩: